Для анализа химической активности соединений была использован принцип молекулярного подобия. В его основе лежит идея, что структурно схожие молекулы предположительно обладают сходной активностью. Поиск структурного сходства молекул основан на доле функциональных групп, которые присутствуют одновременно в обеих молекулах. Для описания молекул были использованы molecular fingerprints (Morgan Fingerprints), которые содержат информацию о присутствии или отсутствии определенных признаков в химическом соединении, например, фрагментов. Пространства fingerprints были визуализированы с помощью различных методов уменьшения размерности, таких как PCA, t-SNE и UMAP. Структурное сходство двух молекул чаще всего оценивается путем вычисления коэффициента Танимото (Tc, tanimoto_similarity). Для наглядности, были построены распределения Tc. При кластеризации малых молекул сходство внутри каждого кластера определяется коэффициентом Танимото. При кластеризации был использован алгоритм, предложенный в статье: Unsupervised Data Base Clustering Based on Daylight's Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets. Для наглядности, была проведена иерархическая кластеризация с использованием ранее подсчитанные коэффициенты Танимото. Результаты были представлены в виде дендрограмм.

a Simply Easy Learning b Simply Easy Learning c Simply Easy Learning
d Simply Easy Learning e Simply Easy Learning

Результаты анализа соединений top50 L1000FWD: (a) Распределение коэффициентов Танимото. (b) Визуализация пространства fingerprints после уменьшения размерности алгоритмом PCA. (c) Визуализация пространства fingerprints после уменьшения размерности алгоритмом t-SNE. (d) Визуализация пространства fingerprints после уменьшения размерности алгоритмом UMAP. (e) Дендрограмма.

a Simply Easy Learning b Simply Easy Learning c Simply Easy Learning
d Simply Easy Learning e Simply Easy Learning

Результаты анализа соединений top50 iLINCS: (a) Распределение коэффициентов Танимото. (b) Визуализация пространства fingerprints после уменьшения размерности алгоритмом PCA. (c) Визуализация пространства fingerprints после уменьшения размерности алгоритмом t-SNE. (d) Визуализация пространства fingerprints после уменьшения размерности алгоритмом UMAP. (e) Дендрограмма.

<
a Simply Easy Learning

Результаты анализа соединений top50 iLINCS: (a) Визуализация пространства fingerprints после уменьшения размерности алгоритмом PCA с отмеченным кластером.

Результаты кластеризации для top50 iLINCS. Соединения из кластера PCA:

pert_id name molecular formula chemical structure
BRD-K80527266 Triacsin C C11H19N3O Mol
BRD-K51418664 BIM0133 C15H18N4O5 Mol
BRD-K89375097 Pirenzepine C19H21N5O2 Mol
BRD-K89839824 Raltitrexed C21H22N4O6S Mol
BRD-K12621773 MLS002699918 C21H16N4O Mol
BRD-K34098590 Ticrynafen C13H8Cl2O4S Mol
BRD-K32644160 SMR000178575 C17H12N4S Mol
BRD-K33164466 SUGA1_008424 C25H30N2O7S Mol
BRD-K48598367 BRD-K48598367 C17H15FN2O3S Mol
BRD-K12762134 XAV 939 C14H11F3N2OS Mol
BRD-K98762074 HG6-64-1 C32H34F3N5O2 Mol
BRD-K57033106 Tripelennamine C16H21N3 Mol
BRD-K92723993 Imatinib C29H31N7O Mol
BRD-K60866521 Idelalisib C22H18FN7O Mol
BRD-K78431006 Crizotinib C21H22Cl2FN5O Mol
BRD-K19687926 Lapatinib C29H26ClFN4O4S Mol
BRD-K89046952 Cyclacillin C15H23N3O4S Mol
BRD-K84924563 SCHEMBL13991002 C6H10N3O3 Mol
BRD-K70401845 Erlotinib C22H23N3O4 Mol
BRD-A34006693 Suprofen C14H12O3S Mol
BRD-K58972465 CID 75060947 C14H13N3O3 Mol
BRD-A14966924 Alaproclate C13H18ClNO2 Mol
BRD-K20141153 Atomoxetine C17H21NO Mol
BRD-A68274214 MEGXP0_001030 C20H28O3 Mol
BRD-K58547240 STK568087 C20H25N5O2 Mol
BRD-K68191783 SCHEMBL15556278 C23H18F3N5O3 Mol
BRD-K82395301 AG-205/40776311 C25H27ClN2O5 Mol
BRD-K37340241 FPA1_000240 C25H36N4O5S Mol
BRD-K33106058 Cytarabine C9H13N3O5 Mol
BRD-K03176945 CBKINASE1_008949 C22H27NO6S Mol
BRD-A06935312 AC1Q5RFA C31H48O6 Mol
BRD-K90864987 Cobalt (Ii) Chloride Cl2Co Mol

a Simply Easy Learning b Simply Easy Learning c Simply Easy Learning
d Simply Easy Learning e Simply Easy Learning

Результаты анализа соединений top50 CLUE: (a) Распределение коэффициентов Танимото. (b) Визуализация пространства fingerprints после уменьшения размерности алгоритмом PCA. (c) Визуализация пространства fingerprints после уменьшения размерности алгоритмом t-SNE. (d) Визуализация пространства fingerprints после уменьшения размерности алгоритмом UMAP. (e) Дендрограмма.

a Simply Easy Learning b Simply Easy Learning

Результаты анализа соединений top50 CLUE: (a) Визуализация пространства fingerprints после уменьшения размерности алгоритмом PCA с рассмотренными кластерами. (b) Визуализация пространства fingerprints после уменьшения размерности алгоритмом UMAP с рассмотренными кластерами.

Результаты кластеризации для top50 CLUE:

pert_id name Chemical formula chemical structure cluster PCA cluster UMAP
BRD-K47943470 tyrphostin-51 C13H8N4O3 Mol 1 1
BRD-K39063656 BRD-K39063656 C29H33FN2O5S Mol 3 2
BRD-K25974714 BRD-K25974714 C30H49N3O7S Mol 4 2
BRD-K74537058 BRD-K74537058 C25H38N4O5 Mol 3 2
BRD-K56183302 BRD-K56183302 C22H32N6O4 Mol 3 2
BRD-K74598339 BRD-K74598339 C28H40N4O5 Mol 4 2
BRD-K17410712 BRD-K17410712 C29H50N4O7S Mol 4 2
BRD-K87412446 BRD-K87412446 C30H52N4O5 Mol 4 2
BRD-K82842087 BRD-K82842087 C25H21N5O2S2 Mol 1 1
BRD-K64418159 BRD-K64418159 C29H34N4O5 Mol 3 1
BRD-K75648723 BRD-K75648723 C33H55N5O6 Mol 4 2
BRD-K95922469 BRD-K95922469 C25H35N5O5 Mol 2 2
BRD-K36241360 BRD-K36241360 C35H52N4O6 Mol 4 2
BRD-K27982554 BRD-K27982554 C30H51N3O6S Mol 4 1
BRD-K34311186 BRD-K34311186 C25H35N5O5 Mol 2 1
BRD-K99803997 BRD-K99803997 C23H26N4O3 Mol 1 1
BRD-K97829610 BRD-K97829610 C20H29N3O5 Mol 1 2
BRD-K95190454 BRD-K95190454 C27H31N5O4 Mol 2 1
BRD-K90074540 BRD-K90074540 C32H39N5O5 Mol 3 2
BRD-K87730884 BRD-K87730884 C29H32N4O5S Mol 2 2
BRD-K84505894 BRD-K84505894 C24H35N5O5 Mol 3 2
BRD-K60027289 BRD-K60027289 C28H36N4O4 Mol 1 2
BRD-K56990873 BRD-K56990873 C28H38FN3O4 Mol 2 2
BRD-K53798768 BRD-K53798768 C26H34N2O8S2 Mol 3 1
BRD-K52032805 BRD-K52032805 C24H33FN2O4S Mol 3 1
BRD-K51848823 BRD-K51848823 C26H32N4O4 Mol 3 1
BRD-K48598367 BRD-K48598367 C17H15FN2O3S Mol 1 2
BRD-K35424586 SA-247714 C33H43N5O4 Mol 3 1
BRD-K29458822 BRD-K29458822 C20H29N3O6S Mol 3 2
BRD-K23240038 BRD-K23240038 C26H29FN4O5S Mol 1 1
BRD-K19357327 BRD-K19357327 C23H35N3O5 Mol 2 2
BRD-K13779607 BRD-K13779607 C17H19F3N2O5 Mol 1 2
BRD-K13765840 BRD-K13765840 C24H34N6O6 Mol 3 1
BRD-K07995125 KU-C104487 C24H25N5O3 Mol 1 1
BRD-K07303502 arachidonyl-trifluoro-methane C21H31F3O Mol 1 1
BRD-A90643929 BRD-A90643929 C51H47N3O7 Mol 1 1
BRD-K73789395 ZM-336372 C23H23N3O3 Mol 1 1
BRD-K71879491 tretinoin C20H28O2 Mol 1 1
BRD-K35188988 BRD-K35188988 C27H42F3N3O5 Mol 4 2

a Simply Easy Learning b Simply Easy Learning c Simply Easy Learning
d Simply Easy Learning e Simply Easy Learning

Результаты анализа соединений top50 TopoCMap: (a) Распределение коэффициентов Танимото. (b) Визуализация пространства fingerprints после уменьшения размерности алгоритмом PCA. (c) Визуализация пространства fingerprints после уменьшения размерности алгоритмом t-SNE. (d) Визуализация пространства fingerprints после уменьшения размерности алгоритмом UMAP. (e) Дендрограмма.

a Simply Easy Learning b Simply Easy Learning c Simply Easy Learning
d Simply Easy Learning e Simply Easy Learning

Результаты анализа соединений, полученных объединением top50 всех инструментов: (a) Распределение коэффициентов Танимото. (b) Визуализация пространства fingerprints после уменьшения размерности алгоритмом PCA. (c) Визуализация пространства fingerprints после уменьшения размерности алгоритмом t-SNE. (d) Визуализация пространства fingerprints после уменьшения размерности алгоритмом UMAP. (e) Дендрограмма.